基于深度学习和传统算法的人体姿态估计,技术细节都讲清楚了 |
您所在的位置:网站首页 › 人体姿态估计 传统方法 › 基于深度学习和传统算法的人体姿态估计,技术细节都讲清楚了 |
大受好评。这次我们再来讲讲计算机视觉里边的第二个研究热点,即人体姿态估计,人体姿态估计现在还有很多问题急需解决,比如遮挡,交互等等。在最近的CVPR2020里边也有很多这方面的工作。 本文站长主要是想谈谈基于深度学习的实时多人姿态估计。主要是拜读了文献7,所以本文站长想谈谈自己通过很多文献的全面阅读后,自己的一些想法和理解,有理解不到位的地方请大家斧正,谢谢。好了,废话少说,我们直接上车吧 ????。01PART人体姿态估计要干嘛?
关于人类活动规律的研究,必定是计算机视觉领域首要关注的内容。其中,人体姿态估计便是计算机视觉领域现有的热点问题,其主要任务是让机器自动地检测场景中的人“在哪里”和理解人在“干什么”。随着信息化时代的迅速发展,人类每时每刻都在通过多种多样的手段和途径获得海量的可视化图像数据,这使得基于自然场景图像的人姿态估计研究在现实生活中拥有很多潜在的应用价值。图1展示了自然场景图像中人体姿态估计的研究应用。 烧 人体行为分析理解成为了近几年研究的热点之一。在人体行为分析理解的发展过程中,研究人员攻克了很多技术上的难关,并形成了一些经典算法,但仍有很多尚未解决的问题。从研究的发展趋势来看,人体行为分析的研究正由采用单一特征、单一传感器向采用多特征、多传感器的方向发展。而人体姿态估计作为人体行为识别的一个重要特征,是进行人体行为分析的基础,是人体行为分析领域备受关注的研究方向之一。 烧 目前主流的人体姿态估计算法可以划分为传统方法和基于深度学习的方法。 基于传统方法的人体姿态估计传统方法一般是基于图结构和形变部件模型,设计2D人体部件检测器,使用图模型建立各部件的连通性,并结合人体运动学的相关约束不断优化图结构模型来估计人体姿态。 其缺点是什么? First,传统方法虽然拥有较高的时间效率,但是由于其提取的特征主要是人工设定的HOG和SHIFT特征,无法充分利用图像信息,导致算法受制于图像中的不同外观、视角、遮挡和固有的几何模糊性。同时,由于部件模型的结构单一,当人体姿态变化较大时,部件模型不能精确地刻画和表达这种形变,同一数据存在多个可行的解,即姿态估计的结果不唯一,导致传统方法适用范围受到很大限制。 Second,另一方面,传统方法很多是基于深度图等数字图像提取姿态特征的算法,但是由于采集深度图像需要使用专业的采集设备,成本较高,所以很难适用于所有的应用场景,而且采集过程需要同步多个视角的深度摄像头以减小遮挡问题带来的影响,导致人体姿态数据的获取过程复杂困难。因此这种传统的基于手工提取特征,并利用部件模型建立特征之间联系的方法大多数是昂贵和低效的。 基于深度学习的人体姿态估计算法随着大数据时代的到来,深度学习在计算机视觉领域得到了成功的应用。因此,考虑如何将深度学习用于解决人体姿态估计问题,是人体姿态估计领域的学者们继图结构模型后所要探索的另一个重点。早期利用深度学习估计人体姿态的方法,都是通过深度学习网络直接回归出输入图像中关节点的坐标。
First,相较之下日常生活中的单目摄像头更为常见,虽然其采集的彩色图像容易受到光照等环境因素的影响,但是可以利用神经网络提取出比人工特征更为准确和鲁棒的卷积特征,以预测更为复杂的姿态,所以基于深度学习的人体姿态估计方法得到了深入的研究。 Second,不同于传统方法显式地设计特征提取器和局部探测器,进行深度学习时构建CNN比较容易实现,同时可以设计处理序列问题的CNN模型,例如循环神经网络RNN,通过分析连续多帧图像获得人体姿态的变化规律,进而为人体姿态中各个关节点之间建立更为准确的拓扑结构。OK,in summary,人体姿态估计算法其实主要可分为基于传统方法的人体姿态估计和基于深度学习的人体姿态估计计算法两大类,而基于传统方法的人体姿态估计一般通过待处理图像到,部位或关节定位的非线性映射来实现。不论是具有理论优势的匹配模型,还是使得人体姿态估计准确性有所提升的深度学习网络,都正促使着人体姿态估计领域快速地发展。 但是,如何在表征人体复杂结构的理论数学模型和提升估计结果的精度上同时取得突破,是人体姿态估计领域一直以来探索的终极目标。因此,人体姿态估计领域在未来的工作中具有较大的研究发展空间。 Fig.4: 2D估计 04PART多人姿态估计本文站长主要是想谈谈基于深度学习的实时多人姿态估计。主要是拜读了文献7,所以本文站长想谈谈自己通过很多文献的全面阅读后,自己的一些想法和理解,有理解不到位的地方请大家斧正,谢谢。目前多人姿态估计主要有两种思路,一种是基于自顶向下的算法,另一种是基于自底向上的算法。 Fig.5: 实时多人估计 自顶向下自顶向下的算法先从图像中检测出所有人,随后利用单人姿态估计的方法对所有人进行姿态估计。自顶向下算法的缺点是算法运行效率随着人数增加而降低,且部分被遮挡的人无法被检测,精度不高。 自底向上自底向上的算法,先检测出所有人的骨点,再将骨点进行连接形成图,最后通过图优化的方法剔除错误的连接,实现多人姿态估计。自底向上算法的优点是运行时间不随人数增加而线性增加,更有利于实时多人姿态估计。站长这次采用的多人姿态估计方法是基于自底向上的方法,是一种六阶段双分支的深度神经网络结构,可同时获得骨点位置以及骨点之间的连接置信度,有效稀疏骨点连接图,提高算法运行效率。对于骨点连接置信度,有骨点之间的亲和区域方法,通过在亲和区域上的线性积分计算骨点连接置信度。05PART网络结构对于一张输入图像,深度神经网络同时预测出每个骨点的热力图S=(S1,S2,…,SJ)和骨点之间的亲和区域L=(L1,L2,…,LC) 。热力图的峰值为骨点的位置,骨点相互连接构成二分图,亲和区域对图的连接进行稀疏,最后对二分图进行最优化实现多人姿态估计。 网络结构深度解读如图6所示,整体网络架构为六阶段双分支,上分支负责预测骨点位置,下分支负责预测骨点之间的亲和区域。前一阶段的预测结果融合原有图像特征并作为下一阶段的输入,经过多阶段的操作以提高骨点预测精度。 关节点热力图是衡量关节点在图像某位置出现的置信度,由一系列二维的点组成,每个点表示骨点出现在该位置的置信度,骨点最终位置定义为置信度最高的位置。对于图像中只有一个人的情况,则某一类型可见的关节点在热力图中只有一个峰值。对于多人情况,某一类型可见的骨点存在多个峰值,表示不同人的同一个类型骨点。 这里站长还是要强调下多人情况下的热力图和单人是有很大区别的。 与CPM不同,CPM网络只是针对单个人的Pose,所以它的网络输出的P张置信度图中(假如一个人总共有P个关节点),每一张置信度上只有一个热点,这个热点只是一个人的一个关节点,比如右手腕关节这个关节点。 但如果图片上有多个人,它的第一行网络输出的P张置信度图中(假如单个人总共有P个关节点),每一张置信度上就有多个热点了,比如右手腕关节,假设有K个人,则要有K个右手腕关节点,所以此时这张置信度上就要有K个热点了。为了更清楚地解释这件事,站长画了下图以形象化得辅助大家理解(画得太丑了orz大家别见怪haha,道理理解清楚就行了) 这个概念其实可以简单点理解就是两个关节点的朋友关系的亲密程度。如图10所示,骨点亲和区域由一系列单位向量组成,每一段肢体对应一个亲和区域,位于肢体上的像素点都由一个单位向量进行表示,包含了位置和方向信息,所有在肢体上的单位向量构成亲和区域。 Fig.11: 算法效果 问题分解与简化为扩展到多人所有骨点的最优化问题,即定义Z为K 维匹配问题,这是一个NP-hard问题,为了提高最优化效率,如图所示,本文采用两种方法降低二分图优化算法的复杂度。 首先,如图所示,剔除跨骨点之间的连接构成稀疏二分图,代替全连接二分图; 然后根据肢体将稀疏后的二分图拆解得到图所示的多个简化二分图。
以下是我采用深度学习算法(Openpose)最终的实验结果(效果果然杠杠的):
11PARTSummary 六阶段双分支网络结构在关节点预测精度上略高于现有传统的的人体姿态估计算法。本次站长采用的算法利用自底向上的思想,首先预测出所有骨点位置,并将骨点连接形成图结构,通过图优化实现多人体姿态估计。算法运行效率方面,由于网络同时预测出关节点位置和关节点之间的空间关系,为多人姿态估计算法提供更加稀疏的二分图,降低二分图优化复杂度而达到了实时的效果。 12PART项目源码Fig.16: 项目源码 巨人的肩膀 [1] Qian C, Sun X, Wei Y, et al. Realtime and robust hand trackingfrom depth[C]//Proceedings of the IEEE conference on computer vision and patternrecognition. 2014: 1106-1113. [2] Joseph Tan D, Cashman T, Taylor J, et al. Fits like a glove: Rapid and reliable hand shape personalization[A]. IEEE Conference on Computer Vision and Pattern Recognition[C], 2016: 5610-5619. [3] Tang D, Jin Chang H, Tejani A, et al. Latent regression forest:Structured estimation of 3d articulated hand posture[A]. IEEE conference oncomputer vision and pattern recognition[A], 2014: 3786-3793. [4] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification withdeep convolutional neural networks[A]. Advances in neural informationprocessing systems[C], 2012: 1097-1105. [5] Zhou E, Cao Z, Yin Q. Naive-Deep Face Recognition: Touching theLimit of LFW Benchmark or Not?[J]. Computer Science, 2015. [6] Sharp T, Keskin C, Robertson D, et al. Accurate, robust, and flexible real-time hand tracking[A]. Proceedings of the 33rd Annual ACM Conference on Human Factors in Computing Systems. ACM[C], 2015: 3633-3642.[7] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields.2017 [8] Oberweger M , Wohlhart P , Lepetit V . Hands Deep in Deep Learning for Hand Pose Estimation[J]. ComputerScience, 2015.
|
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |